exploration-exploitation problem

最適解が分かっている場面ではその最適解(行動)を選択することが報酬の最大化につながる(exploitation)が、学習途中では何が最適な行動かわからないため色々な行動を試す(exploration)必要がある。では、どこまでが学習途中で、どこから学習が完了したと言えるのだろうか？このバランスの難しさが問題となる。

ボルツマン分布

逆温度(inverse temperature)

哺乳類の脳においてはノルアドレナリン(Noradrenaline)がこのパラメータの制御に寄与していると考えられている

The Role of Locus Coeruleus in the Regulation of Cognitive Performance | science (1999)

Naa_tsure.icon生物の脳でランダムに行動を選択するというのは、どのようなメカニズムで起こるのか？

わかりやすい説明としてはカオス(Chaos)な神経活動とか

チャネルのランダム性は平均化されて結局あまりランダム性を持てない？